Tổng quan và Bức tranh tiến hóa kiến trúc

Chúng ta chuyển từ thành công nền tảng của AlexNet sang thời kỳ của các mạng nơ-ron sâu cực kỳ mạng nơ-ron tích chập (CNNs). Sự thay đổi này đòi hỏi những đổi mới kiến trúc sâu sắc để xử lý độ sâu cực lớn mà vẫn duy trì tính ổn định trong huấn luyện. Chúng ta sẽ phân tích ba kiến trúc then chốt—VGG, GoogLeNet (Inception), và ResNet—hiểu cách mỗi kiến trúc giải quyết các khía cạnh khác nhau của bài toán mở rộng quy mô, tạo nền tảng cho việc diễn giải mô hình một cách nghiêm ngặt ở phần sau của bài học này.

1. Tính đơn giản về cấu trúc: VGG

VGG đã giới thiệu phương pháp tối đa hóa độ sâu bằng cách sử dụng các kích thước bộ lọc nhỏ và cực kỳ đồng nhất (chỉ có bộ lọc tích chập 3x3 được chồng lên nhau). Mặc dù tốn kém về mặt tính toán, nhưng sự đồng nhất về cấu trúc của nó đã chứng minh rằng độ sâu thực tế, đạt được nhờ sự thay đổi kiến trúc tối thiểu, chính là yếu tố chủ chốt thúc đẩy cải thiện hiệu suất, củng cố tầm quan trọng của các trường nhận diện nhỏ.

2. Hiệu quả tính toán: GoogLeNet (Inception)

GoogLeNet đã khắc phục chi phí tính toán cao của VGG bằng cách ưu tiên hiệu quả và trích xuất đặc trưng đa quy mô. Đột phá cốt lõi là module Inception, thực hiện các phép tích chập song song (1x1, 3x3, 5x5) và trích xuất đặc trưng. Quan trọng nhất, nó sử dụng tích chập 1x1 như là các điểm nghẽn để giảm mạnh số lượng tham số và độ phức tạp tính toán trước các thao tác tốn kém.

Thách thức kỹ thuật then chốt

Residual Learning: ResNet

ResNet solved the degradation problem by introducing the identity mapping (skip connection). This non-sequential shortcut allows the network to learn a residual function $F(x)$ instead of a direct mapping $H(x)$, effectively ensuring that adding more layers can only improve or maintain performance, dramatically improving optimization stability.

Diagram showing a ResNet skip connection architecture

Question 1

Which architecture emphasized structural uniformity using mostly 3x3 filters to maximize depth?

AlexNet

VGG

GoogLeNet

ResNet

Question 2

The 1x1 convolution is primarily used in the Inception Module for what fundamental purpose?

Increasing feature map resolution

Non-linear activation

Dimensionality reduction (bottleneck)

Spatial attention

Critical Challenge: Vanishing Gradients

Engineering Solutions for Optimization

Explain how ResNet’s identity mapping fundamentally addresses the Vanishing Gradient problem beyond techniques like improved weight initialization or Batch Normalization.

Describe the mechanism by which the skip connection stabilizes gradient flow during backpropagation.

Solution:
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.